The number of malware is constantly on the rise. Though most new malware are modifications of existing ones, their sheer number is quite overwhelming. In this paper, we present a novel system to visualize and map millions of malware to points in a 2-dimensional (2D) spatial grid. This enables visualizing relationships within large malware datasets that can be used to develop triage solutions to screen different malware rapidly and provide situational awareness. Our approach links two visualizations within an interactive display. Our first view is a spatial point-based visualization of similarity among the samples based on a reduced dimensional projection of binary feature representations of malware. Our second spatial grid-based view provides a better insight into similarities and differences between selected malware samples in terms of the binary-based visual representations they share. We also provide a case study where the effect of packing on the malware data is correlated with the complexity of the packing algorithm.
translated by 谷歌翻译
通过越来越多的恶意软件和网络攻击,需要“正交”网络防御方法,其通过检测不被其他方法预测的唯一恶意软件样本来互补。在本文中,我们提出了一种新颖和正交的恶意软件检测(OMD)方法来使用音频描述符,图像相似性描述符和其他静态/统计特征的组合来识别恶意软件。首先,我们展示当恶意软件二进制文件表示为音频信号时,如何如何在分类恶意软件系列方面有效。然后,我们表明对音频描述符的预测与对图像相似性描述符和其他静态特征的预测正交。此外,我们开发了一个错误分析的框架和度量标准,以量化正交的新功能集(或类型)是关于其他特征集的方式。这允许我们为我们的整体框架添加新功能和检测方法。恶意软件数据集的实验结果表明,我们的方法为正交恶意软件检测提供了一种强大的框架。
translated by 谷歌翻译
恶意PDF文件对需要现代威胁情报平台的各种安全组织提出了严重威胁,以有效分析和表征PDF恶意软件的身份和行为。最先进的方法使用机器学习(ml)来学习特征PDF恶意软件的功能。然而,ML模型通常很容易受到逃避攻击的影响,其中对手会使恶意软件代码禁止以避免被防病毒检测到。在本文中,我们推出了一种简单而有效的整体方法,用于PDF恶意软件检测,利用了恶意软件二进制文件的信号和统计分析。这包括组合来自各种静态和动态恶意软件检测方法的正交特征空间模型,以便在面对代码混淆时启用广泛的鲁棒性。使用包含恶意软件和良性示例的近30,000个PDF文件的数据集,我们表明我们的整体方法维持了高检测率(99.92%)的PDF恶意软件,甚至可以检测通过简单方法创建的新的恶意文件,以删除恶意软件所进行的混淆作者隐藏他们的恶意软件,这些恶意软件被大多数杀毒失真。
translated by 谷歌翻译
Self-training (ST) has prospered again in language understanding by augmenting the fine-tuning of pre-trained language models when labeled data is insufficient. However, it remains challenging to incorporate ST into attribute-controllable language generation. Augmented by only self-generated pseudo text, generation models over-emphasize exploitation of the previously learned space, suffering from a constrained generalization boundary. We revisit ST and propose a novel method, DuNST to alleviate this problem. DuNST jointly models text generation and classification with a shared Variational AutoEncoder and corrupts the generated pseudo text by two kinds of flexible noise to disturb the space. In this way, our model could construct and utilize both pseudo text from given labels and pseudo labels from available unlabeled text, which are gradually refined during the ST process. We theoretically demonstrate that DuNST can be regarded as enhancing exploration towards the potential real text space, providing a guarantee of improved performance. Experiments on three controllable generation tasks show that DuNST could significantly boost control accuracy while maintaining comparable generation fluency and diversity against several strong baselines.
translated by 谷歌翻译
回答有关ML预测的查询的问题在数据库社区中引起了人们的关注。这个问题是具有挑战性的,因为寻找高质量答案的成本与呼唤甲骨文(例如人类专家)或昂贵的深度神经网络模型在数据库中的每个项目中,然后应用查询。我们开发了一个新颖的统一框架,用于通过利用代理来最大程度地减少在Precision-target(PT)和Recce-Tagget(RT)查询中找到高质量答案的方法来最大程度地减少Oracle的使用。我们的框架使用明智的组合,可以在数据样本上调用昂贵的Oracle并在DB中的对象上应用廉价代理。它依靠两个假设。在代理质量假设下,可以以概率方式量化代理质量W.R.T.甲骨文。这使我们能够开发两种算法:PQA,可以有效地找到具有高概率和无甲骨文调用的高质量答案,以及PQE,PQE是一种启发式扩展,可以通过少量的Oracle调用实现经验上的良好性能。另外,在核心集封闭假设下,我们开发了两种算法:CSC,该算法可以有效地返回高质量的答案,概率和最小的甲骨文用法以及CSE将其扩展到更一般的设置。我们在两种查询类型的五个现实世界数据集上进行的广泛实验,PT和RT,表明我们的算法优于最先进,并具有可证明的统计保证。
translated by 谷歌翻译
我们呈现$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $,控制框架,使能安全同时学习和控制能够进行不确定因素的系统。这两个主要成分是基于收缩理论的$ \ mathcal {l} _1 $($ \ mathcal {cl} _1 $)控制和贝叶斯学习以高斯过程(GP)回归。$ \ mathcal {cl} _1 $控制器可确保在提供安全证书时满足控制目标。此外,$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $将任何可用数据纳入了GP的不确定因素模型,这提高了性能并使运动计划能够安全地实现最佳状态。这样,即使在学习瞬变期间,也可以保证系统的安全操作。我们提供了一些用于在各种环境中安全学习和控制平面的平面电路系统的说明性示例。
translated by 谷歌翻译
多项式扩张对于神经网络非线性的分析很重要。他们已应用于验证,解释性和安全性的众所周知的困难。现有方法跨度古典泰勒和切苯齐夫方法,渐近学和许多数值方法。我们发现,虽然这些单独具有有用的属性,如确切的错误公式,可调域和鲁棒性对未定义的衍生物,但没有提供一致方法,其具有所有这些属性的扩展。为解决此问题,我们开发了一个分析修改的积分变换扩展(AMITE),通过使用派生标准进行修改的整体变换的新型扩展。我们展示了一般的扩展,然后展示了两个流行的激活功能,双曲线切线和整流线性单位的应用。与本端使用的现有扩展(即Chebyshev,Taylor和Numerical)相比,Amite是第一个提供六个以前相互排斥的膨胀性能,例如系数的精确公式和精确的膨胀误差(表II)。我们展示了两种案例研究中Amite的有效性。首先,多变量多项式形式从单个隐藏层黑盒子多层Perceptron(MLP)有效地提取,以促进从嘈杂的刺激响应对的等效测试。其次,在3到7层之间的各种前馈神经网络(FFNN)架构是使用由Amite多项式和误差公式改善的泰勒模型的范围。 Amite呈现了一种新的扩展方法维度,适用于神经网络中的非线性的分析/近似,打开新的方向和机会,了解神经网络的理论分析和系统测试。
translated by 谷歌翻译